全国首个克而瑞大数据测评榜——“配套综合实力榜”是如何实现的
数据是房地产行业的核心要素,大数据时代的到来,不仅为房地产行业提供了海量数据,更重要的是对于数据房地产处理方式的改变。克而瑞基于大数据及利用创新技术对数据的处理,即将推出一系列大数据测评榜,对房地产行业进行多维创新深度的测评。(详细请点击:拥抱大数据 克而瑞将解锁行业测评新模式)
首个房地产大数据测评,我们将研究长沙房地产市场上在售项目的综合配套实力。共分为三个步骤:配套范围确定-筛选强关联指标-分数计算。测评评定原理为:通过等时圈地图,根据机器学习算法筛选出影响项目价格的关键配套指标并确定其权重,加权得出项目周边配套的综合得分,综合得分越高项目配套综合实力越强。
用等时圈方法确定配套范围
等时圈是指从某点出发,以某种交通方式在特定时间内能到达的距离覆盖的范围。我们选取样本项目周边1.5km直线距离等时圈、开车与步行10分钟等时圈,三个维度相结合所覆盖到的各类配套。
各类等时圈覆盖主要配套类别示意表
三个等时圈初始圈定的配套指标达60多个,涉及交通、教育、商业、休闲、医疗、不利因素六大类。
通过综合交叉三类等时圈的配套,完整的体现了项目周边交通耗时在地理空间上的反应,更加能精准的表示等时圈范围内配套对项目的影响。
以阳光城檀悦为例配套覆盖情况:
筛选强关联指标
圈定范围内的配套之后,我们通过XGBOOST模型、LIGHTGBM模型和集成学习融合模型,来确定影响项目价格的关键配套指标和权重。
通过系数对指标进行筛选
1) 对初始的60多个配套指标进行多重共线性分析:共线系数达到0.7的指标筛选出来,剔除相关性较弱的指标。
例如,轨交站点个数与轨交线路数的共线系数为0.84,但是轨交站点个数的相关系数为0.89,轨交线路数的相关系数为为0.71,所以保留指标轨交站点个数。
2) 在1)的基础上进行因果变量的相关性分析:剔除相关系数低于0.75的指标。
3) 步骤1)和2)完成后,获得主要的配套指标。
训练机器模型
确定影响项目价格的关键配套指标和权重
1) 训练不同的机器学习算法得到最优的算法模型(包括XGBOOST、LIGHTGBM等模型)
2) 根据最优模型的训练结果确定影响项目价格的关键配套指标及其权重
以长沙1218个项目样本为例,综合长沙房地产市场上所有一二手房配套数据,研究配套与房价的影响关系,再把这套逻辑适用在新房项目上。通过训练机器学习算法,最后得出影响长沙的关键配套指标有16个,如下图所示。
以阳光城檀悦为例,筛选之后关键配套指标覆盖情况:
分数计算,得出最终排名
1、 对最终16个关键配套指标的值进行加权,计算出项目配套综合得分Z=∑wx,再根据所有项目综合得分进行排名。
2、 计算出的得分区间具有变化性,对计算出的综合得分进行[0,100]标准化,将标准化的得分作为最终的综合得分。
以阳光城檀悦为例配套分值计算情况:
对最终的关键配套指标的值进行加权,计算出阳光城檀悦的综合得分为94.34。详情如下表所示。
大数据计算下的配套综合实力排名,能更客观、更全面、更科学的体现项目所拥有的配套价值。通过这张榜单,购房者能清楚的看到,真正配套好的项目在哪里,哪个项目更加具有性价比等等;房地产开发商能明确的了解,项目的配套价值是否被完全挖掘,项目定价是否合理等等。
克而瑞希望,在大数据与技术加持下新的测评方式,能改变传统销售排名带来的既定印象,助力企业/项目和购房者更好的获取的对自身有价值的数据和排名。
来源/克而瑞湖南